Utworzenie dokładnego modelu pozawlającego na przewidzenie dokładnych długości śledzi jest niestety dość skomplikowane.
Mimo wszystko prace odnośnie utworzenia takiego raportu wykazały, że dane takie jak dostępność jedzenia dla śledzi, ilość i częstość połowów może mieć wpływ na wielkość śledzi w zbiornikach wodnych.
Dodatkową kwestią która rzuciła się również w oczy w trakcie analizy jest temperatura nad powierzchnią wody. W przypadku posiadania danych historycznych, można byłoby przeprowadzić analizę odnośnie jej zmian w czasie na wielkość śledzi.
Raport służy do analizy potencjalnych przyczyn stopniowego karłowacenia śledzi oceanicznych wyławianych w Europie.
Do analizy wykorzystano zbiór danych udostępniony przez prowadzącego na podstawie danych z połowów komercyjnych jednostek w przeciągu ostatnich 60 lat. Do analizy z połowu każdej jednostki wybierano między 50 a 100 sztuk trzyletnich śledzi.
Zbiór składa się z następujących danych:
length - analizowana długość złowionego śledzia
[cm]cfin1 - dostępność planktonu [zagęszczenie Calanus
finmarchicus gat. 1];cfin2 - dostępność planktonu [zagęszczenie Calanus
finmarchicus gat. 2];chel1 - dostępność planktonu [zagęszczenie Calanus
helgolandicus gat. 1];chel2 - dostępność planktonu [zagęszczenie Calanus
helgolandicus gat. 2];lcop1 - dostępność planktonu [zagęszczenie widłonogów
gat. 1];lcop2 - dostępność planktonu [zagęszczenie widłonogów
gat. 2];fbar - natężenie połowów w regionie [ułamek
pozostawionego narybku];recr - roczny narybek [liczba śledzi];cumf - łączne roczne natężenie połowów w regionie
[ułamek pozostawionego narybku];totaln - łączna liczba ryb złowionych w ramach połowu
[liczba śledzi];sst - temperatura przy powierzchni wody [°C];sal - poziom zasolenia wody [Knudsen ppt];xmonth- miesiąc połowu [numer miesiąca];nao - oscylacja północnoatlantycka [mb].W zbiorze danych pojawiają się braki wartości w przypadku kolumn:
cfin1, cfin2, chel1,
chel2, lcop1, lcop2,
sst. Z uwagi na to, jesteśmy zmuszeni je odfiltrować,
redukując ilość danych z 52582 do 42488 (81% danych jest pełnych).
Po redukcji wartości pustej pozostajemy ze zbiorem posiadającym 42488 rekordów. Poniżej znajduje się tabela zbierające wszystkie zmienne uwzględniane w analizie.
| X | length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | |
|---|---|---|---|---|---|---|---|
| 2 | 1 | 22.5 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 |
| 3 | 2 | 25.0 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 |
| 4 | 3 | 25.5 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 |
| 5 | 4 | 24.0 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 |
| 7 | 6 | 24.0 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 |
| 8 | 7 | 23.5 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 |
| lcop2 | fbar | recr | cumf | totaln | sst | sal | |
|---|---|---|---|---|---|---|---|
| 2 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 |
| 3 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 |
| 4 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 |
| 5 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 |
| 7 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 |
| 8 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 |
| length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | |
|---|---|---|---|---|---|---|---|
| Min. :19.0 | Min. : 0.0000 | Min. : 0.0000 | Min. : 0.000 | Min. : 5.238 | Min. : 0.3074 | Min. : 7.849 | |
| 1st Qu.:24.0 | 1st Qu.: 0.0000 | 1st Qu.: 0.2778 | 1st Qu.: 2.469 | 1st Qu.:13.427 | 1st Qu.: 2.5479 | 1st Qu.:17.808 | |
| Median :25.5 | Median : 0.1111 | Median : 0.7012 | Median : 5.750 | Median :21.435 | Median : 7.0000 | Median :24.859 | |
| Mean :25.3 | Mean : 0.4457 | Mean : 2.0269 | Mean :10.016 | Mean :21.197 | Mean : 12.8386 | Mean :28.396 | |
| 3rd Qu.:26.5 | 3rd Qu.: 0.3333 | 3rd Qu.: 1.7936 | 3rd Qu.:11.500 | 3rd Qu.:27.193 | 3rd Qu.: 21.2315 | 3rd Qu.:37.232 | |
| Max. :32.5 | Max. :37.6667 | Max. :19.3958 | Max. :75.000 | Max. :57.706 | Max. :115.5833 | Max. :68.736 |
| fbar | recr | cumf | totaln | sst | sal | nao | |
|---|---|---|---|---|---|---|---|
| Min. :0.0680 | Min. : 140515 | Min. :0.06833 | Min. : 144137 | Min. :12.77 | Min. :35.40 | Min. :-4.89000 | |
| 1st Qu.:0.2270 | 1st Qu.: 360061 | 1st Qu.:0.14809 | 1st Qu.: 306068 | 1st Qu.:13.60 | 1st Qu.:35.51 | 1st Qu.:-1.90000 | |
| Median :0.3320 | Median : 421391 | Median :0.23191 | Median : 539558 | Median :13.86 | Median :35.51 | Median : 0.20000 | |
| Mean :0.3306 | Mean : 519877 | Mean :0.22987 | Mean : 515082 | Mean :13.87 | Mean :35.51 | Mean :-0.09642 | |
| 3rd Qu.:0.4650 | 3rd Qu.: 724151 | 3rd Qu.:0.29803 | 3rd Qu.: 730351 | 3rd Qu.:14.16 | 3rd Qu.:35.52 | 3rd Qu.: 1.63000 | |
| Max. :0.8490 | Max. :1565890 | Max. :0.39801 | Max. :1015595 | Max. :14.73 | Max. :35.61 | Max. : 5.08000 |
Na podstawie podsumowania wartości poszczególnych zmiennych zauważyć
można, że cfin1, cfin2, chel1,
chel2, lcop1, lcop2,
fbar, recr mogą posiadać outlayery, które
powodować mogą utrudnienia w analizie dalszych danych. Kwestia ta
zostanie poruszona przy szczegółowej analizie parametrów.
W tej sekcji zostanie przeprowadzona szczegółowa analiza poszczególnych analizowanych atrybutów. W przypadku wykresu histogramu wraz z gęstością, wartość na osi Y ukazuje gęstość prawdopodobieństwa. Histogram został dodany poglądowo.
Na podstawie powyższych wykresów zauważyć można, że długość śledzi przypomina rozkład normalny. Z tego powodu przeprowadzono test shapiro, żeby sprawdzić to założenie.
##
## Shapiro-Wilk normality test
##
## data: sample_n(df, 500)$length
## W = 0.98711, p-value = 0.0002109
Na podstawie wyników testu można założyć normalność rozkładu parametru długości.
Nie zawiera on outlayerów, które potencjalnie mogłyby powodować trudności przy dalszej analizie, skupiając się w okolicach wartości 25.5.
Ciekawą obserwacją, którą zauważyć można dopiero przy analizie gęstości prawdopodobieństwa jest fakt, iż większe istnieje większe prawdopodobieństwo wartości “pełnych” niż po przecinku. Może się to wiązać z faktem, że dane odnośnie długości mogą być spisywane przez ludzi czasem w systemie pełnych wartości, a czasem po ich zaokrągleniu.
| xmonth | mean_length |
|---|---|
| 1 | 25.44887 |
| 2 | 24.87944 |
| 3 | 25.11590 |
| 4 | 25.31363 |
| 5 | 25.30740 |
| 6 | 25.63711 |
| 7 | 25.29590 |
| 8 | 25.31561 |
| 9 | 25.44773 |
| 10 | 25.20388 |
| 11 | 25.31721 |
| 12 | 25.21990 |
Na podstawie wykresu można zauważyć, że zdarzają się miesiące jak luty i marzec, gdzie średnia długość złapanych ryb potrafi być delikatnie niższa niż w pozostałych, gdzie średnia długość ryb wynosi w trakcie całego roku 25.3cm. Za to najdłuższa średnia długość występuje w czerwcu.
Przy wszystkich tych parametrach zauważyć można wartości odstające, które na rzecz szczegółowej analizy jesteśmy zmuszeni porzucić. Są to zazwyczaj pojedyncze odczyty znacznie odstające od wszystkich innych.
Cfin1Z uwagi na pojedynczą wartość silnie odstającą w porównaniu do pozostałych, w celu poprawnej analizy jesteśmy zmuszeni do pozbycia się tej pojedynczej wartości odstającej mającej wartość 37.66667.
Zauważyć można, że wartości tego parametru bardzo silnie skupiają się do okoła wartości 0.11111, jednak wciąż pojawiają się wartości przekraczające 0.75.
Cfin2Zauważyć można, że wartości tego parametru bardzo silnie skupiają się do okoła wartości 0.70118. Mimo to, pojawiają się przypadki, gdzie zaobserwować można odczyty z wartościami powyżej 10, jendak z uwagi, że nie są to pojedyncze odczyty, pozostawiamy je w naszej analizie.
chel1Zauważyć można, że wartości tego parametru bardzo silnie skupiają się do okoła wartości 5.75. Zauważyć jednak można odczyty powyżej wartości 20, które mogą być istotne na naszą analizę. Wyjątkiem jest pojedynczy odczyt wartości maksymalnej w naszej analizie.
chel2Zauważyć można, że rozkład tego parametru jest stosunkowo mocno rozłożony, nie gromadząc się tak bardzo do okoła jednej wartości. Z uwagi na pojedynczą, odstającą wartość maksymalną byliśmy zmuszeni do usunięcia tego odczytu.
lcop1Zauważyć można, że rozkład parametru nie skupia się do okoła jednej wartości tak mocno, jednak posiada tendencje do osiągania wartości bliskiej 3. Atrybut ten jest w stanie dość często osiągać wartości powyżej 20.
lcop2Zauważyć można, że rozkład parametru miewa tendencje do gromadzenia się w około wartości 24. Zdarzają się jednak sytuacje, gdzie odczyty wynoszą powyżej 40.
Połowy zwyczajowo pozostawiają 0.327% narybku. Zdarzają się jednak sytuacje, gdzie wartość ta w stopniu znacznym przekracza 50%.
Przeciętny roczny połów gromadzi się zwyczajowo w okolicach wartości 0.327. Zdarzaja się jednak roczne połowy ponad 3x większe od tych przeciętnych, jednak przypadki powyżej 1.000.000 występują znacznie rzadziej.
Łączne roczne natężenie połowów w regionie jest znacznie bardziej rozłożone między wartościami 0 a 0.4. Jest to wartość dość szeroko rozłożona między tymi wartościami, bez wartości do około której gromadzą się najczęstrze odczyty.
Łączna liczba ryb złowionych w ramach połowu rozkłąda się stosunkowo równo w całym przedziale, od 80.000 do 800.000. Mimo tego, pojawiają się pojedyncze połowy z ponad 1.000.000 złowionymi rybami
Temperatura przy powierzchni zwyczajowo osiąga wartości w okolicach 14 stopni celsjusza. Mimo to pojawiają się odczyty, gdy osiąga wartości poniżej 13 stopni.
Poziom zasolenia wody gromadzi się bardzo mocno do okoła wartości 35.5123389. Wszystkie jednak odczyty znajdują się w przedziale między 35.35% a 35.7%. Odczylenia od wartości centralnej są nieznaczne.
Najmniej pomiarów zostało wykonanych zimą, a najwięcej w okresie letnio-jesiennym. W pozostałych miesiącach ilość pomiarów jest na poziomie ok 2000.
Wartość oscylacji północnoatlantyckiej rozkłada się stosunkowo równo między wartościami -3, a 2.5, jednak zdarzają się pojedyncze odczyty, gdzie parametr ten osiąga wartość bliską 5.0.
Poniżej znajduje się tabela zawierające współczynniki korelacji pearsona.
| length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | |
|---|---|---|---|---|---|---|---|
| length | 1.00 | 0.08 | 0.11 | 0.13 | -0.08 | 0.16 | 0.01 |
| cfin1 | 0.08 | 1.00 | 0.14 | 0.14 | 0.06 | 0.13 | 0.11 |
| cfin2 | 0.11 | 0.14 | 1.00 | 0.06 | 0.32 | -0.02 | 0.68 |
| chel1 | 0.13 | 0.14 | 0.06 | 1.00 | 0.19 | 0.89 | 0.20 |
| chel2 | -0.08 | 0.06 | 0.32 | 0.19 | 1.00 | -0.02 | 0.87 |
| lcop1 | 0.16 | 0.13 | -0.02 | 0.89 | -0.02 | 1.00 | 0.01 |
| lcop2 | 0.01 | 0.11 | 0.68 | 0.20 | 0.87 | 0.01 | 1.00 |
| fbar | 0.22 | -0.10 | 0.17 | -0.13 | -0.05 | -0.19 | 0.00 |
| recr | 0.02 | 0.12 | -0.11 | 0.17 | 0.04 | 0.20 | 0.03 |
| cumf | -0.01 | -0.07 | 0.35 | -0.08 | 0.25 | -0.18 | 0.28 |
| totaln | 0.09 | 0.19 | -0.21 | 0.24 | -0.40 | 0.37 | -0.31 |
| sst | -0.44 | 0.02 | -0.25 | -0.23 | 0.04 | -0.28 | -0.10 |
| sal | 0.08 | 0.22 | -0.09 | 0.05 | -0.16 | 0.10 | -0.13 |
| nao | -0.21 | 0.00 | -0.03 | -0.39 | 0.02 | -0.45 | 0.02 |
| fbar | recr | cumf | totaln | sst | sal | nao | |
|---|---|---|---|---|---|---|---|
| length | 0.22 | 0.02 | -0.01 | 0.09 | -0.44 | 0.08 | -0.21 |
| cfin1 | -0.10 | 0.12 | -0.07 | 0.19 | 0.02 | 0.22 | 0.00 |
| cfin2 | 0.17 | -0.11 | 0.35 | -0.21 | -0.25 | -0.09 | -0.03 |
| chel1 | -0.13 | 0.17 | -0.08 | 0.24 | -0.23 | 0.05 | -0.39 |
| chel2 | -0.05 | 0.04 | 0.25 | -0.40 | 0.04 | -0.16 | 0.02 |
| lcop1 | -0.19 | 0.20 | -0.18 | 0.37 | -0.28 | 0.10 | -0.45 |
| lcop2 | 0.00 | 0.03 | 0.28 | -0.31 | -0.10 | -0.13 | 0.02 |
| fbar | 1.00 | -0.20 | 0.82 | -0.54 | -0.16 | 0.11 | 0.19 |
| recr | -0.20 | 1.00 | -0.24 | 0.38 | -0.22 | 0.25 | 0.03 |
| cumf | 0.82 | -0.24 | 1.00 | -0.72 | 0.05 | -0.07 | 0.30 |
| totaln | -0.54 | 0.38 | -0.72 | 1.00 | -0.29 | 0.15 | -0.40 |
| sst | -0.16 | -0.22 | 0.05 | -0.29 | 1.00 | -0.02 | 0.51 |
| sal | 0.11 | 0.25 | -0.07 | 0.15 | -0.02 | 1.00 | 0.05 |
| nao | 0.19 | 0.03 | 0.30 | -0.40 | 0.51 | 0.05 | 1.00 |
Na podstawie danych można dojrzeć silniejsze związki (z wartością współczynnika korelacji pearsona powyżej 0.5, bądź poniżej -0.5) pomiędzy następującymi wartościami:
cfin2 oraz
lcop2: 0.68chel1 oraz
lcop1: 0.89chel2 oraz
lcop2: 0.87fbar oraz
cumf: 0.82fbar oraz
totaln: -0.54cumf oraz
totaln: -0.72sst oraz
nao: 0.51W tym punkcie w celu uproszczenia wizualizacji, ograniczamy zbiór wartości do 200 losowo wybranych wartości, w celu lepszej widoczności na wykresie.
Zgodnie oczekiwaniami na podstawie wartości z macierzy korelacji, żadna ze zmiennycyh nie przejawia silnej korelacji z długością śledzi. Zauważyć jednak można słabą, odwrotnie proporcjonalną zależność pomiędzy długością, a temperaturą przy powierzchni wody.
cfin2, a lcop2Na podstawie wykresu zauważyć można delikatną zależność pomiędzy parametrami. Nie jest to jednak bardzo istotna zależność.
Możliwe, że poszczególne rodzaje glonów mają podobne wymagania, bądź koegzystują one w środowisku naturalnym, co tyczy się kolejnych 2 rozważanych zależności.
chel1, a lcop1Na podstawie wykresu można zauważyć silną zależność pomiędzy parametrami. Jest ona bliska zależności liniowej.
chel2, a lcop2Na podstawie wykresu można zauważyć silną zależność pomiędzy parametrami. Jest ona bliska zależności liniowej.
fbar, a cumfNa podstawie wykresu można zauważyć średnią zależność pomiędzy parametrami.
Zależność pomiędzy natężeniem połowów w regionie oraz łącznym natężeniem połowów w regionie oznacza, że zazwyczaj wzrosty połowów w poszczególnych regionach mogą rosnąć w miarę proporcjonalnie.
fbar, a totalnNa podstawie wykresu można zauważyć średnia zależność pomiędzy parametrami.
Zależność pomiędzy natężeniem połowów w regionie oraz łączną liczbą ryb złowionych w ramach połowu jest róWnież racjonalna. Czym częściej przeprowadzane i czym większe są połowy, tym mniej ryb potencjalnie pozostaje w regionie na kolejne połowy.
cumf, a totalnNa podstawie wykresu można zauważyć średnia zależność pomiędzy parametrami.
Zależność pomiędzy natężeniem połowów w regionie oraz łączną liczbą ryb złowionych w ramach połowu jest róWnież racjonalna. Czym częściej przeprowadzane i czym większe są połowy, tym mniej ryb potencjalnie pozostaje w regionie na kolejne połowy.
sst, a naoNa podstawie wykresu można zauważyć średnia zależność pomiędzy parametrami.
Oscylacja północnoatlantycka wpływa na cyrkulacje powietrza oraz wody oceanicznej, co faktycznie może miec możliwość wpływu na temperature przy powierzchni wody.
Ciekawą obserwacją jest fakt, że w miesiącach zimowych (listopad-luty), wartość korelacji jest większa od wartości w miesiącach letnich (czerwiec-sierpień): 0.598973 > 0.4752594.
W naszej analizie przygotujemy 4 modele do przewidywania długości śledzi, na tych samych danych.
Dane do uczenia dzielimy na 3 zbiory:
## Linear Regression
##
## 30521 samples
## 14 predictor
##
## Pre-processing: centered (24), scaled (24)
## Resampling: Cross-Validated (2 fold, repeated 5 times)
## Summary of sample sizes: 15261, 15260, 15260, 15261, 15262, 15259, ...
## Resampling results across tuning parameters:
##
## intercept RMSE Rsquared MAE
## FALSE 25.279555 0.322375 25.243276
## TRUE 1.353873 0.322375 1.076695
##
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was intercept = TRUE.
Najprostrzy z modeli, biorący pod wagę przede wszystkim parametr
fbar, cumf oraz sst, a w
następnej kolejności wartości związanie z niektórymi glonami i
miesiącami.
Tylko w nieznacznym stopniu uwzględnia niektóre miesiące czy niektóre rodzaje glonów, skupiając się bardziej na informacjach odnośnie wielkości połowów, ich częstotliwości oraz temperaturze wody.
## Ridge Regression
##
## 30521 samples
## 14 predictor
##
## Pre-processing: centered (24), scaled (24)
## Resampling: Cross-Validated (2 fold, repeated 5 times)
## Summary of sample sizes: 15260, 15261, 15261, 15260, 15261, 15260, ...
## Resampling results across tuning parameters:
##
## lambda RMSE Rsquared MAE
## 0.0000000 1.354329 0.3219967 1.077066
## 0.2631579 1.390407 0.2854528 1.108196
## 0.5263158 1.407455 0.2685010 1.120644
## 0.7894737 1.419101 0.2588695 1.129451
## 1.0526316 1.428637 0.2523673 1.136813
## 1.3157895 1.436992 0.2475506 1.143477
## 1.5789474 1.444524 0.2437739 1.149593
## 1.8421053 1.451406 0.2406986 1.155288
## 2.1052632 1.457743 0.2381262 1.160614
## 2.3684211 1.463603 0.2359309 1.165564
## 2.6315789 1.469042 0.2340283 1.170128
## 2.8947368 1.474103 0.2323588 1.174313
## 3.1578947 1.478824 0.2308789 1.178176
## 3.4210526 1.483235 0.2295560 1.181753
## 3.6842105 1.487366 0.2283649 1.185082
## 3.9473684 1.491242 0.2272857 1.188184
## 4.2105263 1.494884 0.2263027 1.191092
## 4.4736842 1.498313 0.2254029 1.193816
## 4.7368421 1.501545 0.2245758 1.196376
## 5.0000000 1.504598 0.2238127 1.198789
##
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was lambda = 0.
Model ten w podobnym stopniu bierze pod uwagę parametry wszystkie
parametry poza cfin1 który jest znacznie mniej dla niego
istotny oraz poza miesiącem, który jest przez niego kompletnie
ignorowany.
## The lasso
##
## 30521 samples
## 14 predictor
##
## Pre-processing: centered (24), scaled (24)
## Resampling: Cross-Validated (2 fold, repeated 5 times)
## Summary of sample sizes: 15262, 15259, 15259, 15262, 15261, 15260, ...
## Resampling results across tuning parameters:
##
## fraction RMSE Rsquared MAE
## 0.00000000 1.644644 NaN 1.330961
## 0.05263158 1.556105 0.1982679 1.254193
## 0.10526316 1.497711 0.2019415 1.204101
## 0.15789474 1.464099 0.2195357 1.176360
## 0.21052632 1.444508 0.2378946 1.159408
## 0.26315789 1.428168 0.2556981 1.144676
## 0.31578947 1.414156 0.2700348 1.131982
## 0.36842105 1.402181 0.2814018 1.121081
## 0.42105263 1.392274 0.2900246 1.111979
## 0.47368421 1.384097 0.2973876 1.104297
## 0.52631579 1.377120 0.3035319 1.097583
## 0.57894737 1.371366 0.3083053 1.091986
## 0.63157895 1.366761 0.3120334 1.087960
## 0.68421053 1.363023 0.3151224 1.084796
## 0.73684211 1.359971 0.3176223 1.082141
## 0.78947368 1.357554 0.3195471 1.079975
## 0.84210526 1.355797 0.3208932 1.078351
## 0.89473684 1.354717 0.3216971 1.077348
## 0.94736842 1.354167 0.3221346 1.076877
## 1.00000000 1.354077 0.3222065 1.076801
##
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was fraction = 1.
Model doszedł do podobnego wniosku jak poprzedni, biorąc pod uwagę
parametry wszystkie parametry poza cfin1 który jest
znacznie mniej dla niego istotny oraz poza miesiącem, który jest przez
niego kompletnie ignorowany.
## Random Forest
##
## 30521 samples
## 14 predictor
##
## Pre-processing: centered (24), scaled (24)
## Resampling: Cross-Validated (2 fold, repeated 5 times)
## Summary of sample sizes: 15259, 15262, 15261, 15260, 15261, 15260, ...
## Resampling results across tuning parameters:
##
## mtry RMSE Rsquared MAE
## 2 1.168245 0.4965309 0.9243836
## 3 1.159699 0.5030078 0.9165690
## 4 1.155100 0.5067784 0.9120447
## 5 1.152890 0.5086578 0.9089597
## 6 1.152506 0.5090805 0.9079112
## 7 1.153044 0.5086967 0.9081653
## 8 1.153732 0.5081797 0.9082725
## 9 1.155061 0.5071897 0.9094000
## 10 1.155194 0.5071315 0.9091117
## 11 1.155482 0.5069305 0.9094288
## 12 1.155718 0.5067592 0.9094810
## 13 1.156310 0.5063098 0.9097402
## 14 1.156528 0.5061038 0.9100393
## 15 1.157093 0.5057092 0.9104662
##
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was mtry = 6.
Model najbardziej zwrócił uwagę na parametr sst,
fbar oraz totaln, czyli na parametry, które
analogicznie, były istotne w pozostałych modelach.
##
## Call:
## summary.resamples(object = models)
##
## Models: lm, ridge, lasso, rf
## Number of resamples: 10
##
## MAE
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## lm 1.072793 1.0752805 1.0768614 1.0766953 1.0781833 1.0808626 0
## ridge 1.069572 1.0732301 1.0769895 1.0770664 1.0804504 1.0844883 0
## lasso 1.069844 1.0734484 1.0765377 1.0768011 1.0807263 1.0833661 0
## rf 0.901797 0.9029199 0.9086953 0.9079112 0.9115613 0.9139328 0
##
## RMSE
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## lm 1.347917 1.350318 1.353461 1.353873 1.358300 1.359916 0
## ridge 1.343103 1.349703 1.354382 1.354329 1.359116 1.365257 0
## lasso 1.343547 1.348834 1.354084 1.354077 1.359316 1.363902 0
## rf 1.142723 1.147006 1.152630 1.152506 1.157333 1.164865 0
##
## Rsquared
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## lm 0.3161234 0.3180881 0.3225996 0.3223750 0.3262080 0.3291795 0
## ridge 0.3166177 0.3186248 0.3219248 0.3219967 0.3252442 0.3278871 0
## lasso 0.3173629 0.3204683 0.3219148 0.3222065 0.3241017 0.3264110 0
## rf 0.4993606 0.5071474 0.5099254 0.5090805 0.5117742 0.5166064 0
Regresja liniowa:
| x | |
|---|---|
| RMSE | 1.3680331 |
| Rsquared | 0.3091737 |
| MAE | 1.0886246 |
RIDGE:
| x | |
|---|---|
| RMSE | 1.3680331 |
| Rsquared | 0.3091737 |
| MAE | 1.0886246 |
LASSO:
| x | |
|---|---|
| RMSE | 1.3680331 |
| Rsquared | 0.3091737 |
| MAE | 1.0886246 |
Random forest:
| x | |
|---|---|
| RMSE | 1.1555121 |
| Rsquared | 0.5070927 |
| MAE | 0.9127902 |
Porównując wyniki wszystkich 4 modeli, możemy zauważyć, że model regresji liniowej posiada najgorszą wartość RMSE oraz Rsquared. Najlepsze wartości natomiast prezentuje algorytm Random forest, który to osiąga znacznie lepsze wartości wszystkich parametrów testowych. Mimo wszystko wybrane modele nie mają w pełni satysfakcjonującej efektywności.
Analiza oraz predykcja danych odnośnie długości śledzi nie daje jednoznacznych wyników. Różne metody predykcji pokazują, inne podejścia oraz priorytety związane z określeniem, co na takową długość może wpływać. Możliwe, że w przypadku dostępności dodatkowych atrybutów, takich jak rok połowu, można byłoby osiągnąć odrobinę lepsze wyniki, gdyż aktualnie miesiąc nie jest wartością, która tak mocno wpływa na wyniki predykcji.
Duża ilość zmiennych któRe zostały dostarczone nie posiada rozkładów, które można byłoby przybliżyć np rozkładem normalnym, ani nie posiada korelacji między sobą.
Jedynie silnie skorelowane są atrybuty związane z dostępnością glonów
chel1 oraz lcop1, chel2 oraz
lcop2, a także fbar i cumf.
Ciekawą i jednocześnie racjonalną obserwacją jest zmiana współczynnika persona przy korelacji pomiędzy oscylacją północnoatlantycką oraz temperaturą na powierzchni wody w zależności od miesiąca. W tych zimowych, wartość ta potrafi być większa, czyniąc tą korelacje bardziej istotną.
Wszystkie modele w różnym stopniu zwróciły uwagę na istotność
istnienia poszczególny rodzajów glonów, w szczególności na rodzaj
cfin1, który może być konsumowany przez poszczególne
gatunki śledzia [1]. Wraz ze wzrostem pożywienia, rośnie potencjalna
wielkość osobników danego gatunku.
Kwestie temperatury nad powierzchnią wody również jest istotną kwestią w modelach, jednak przez brak informacji o roku pomiarów trudno jest przeanalizować kwestie zmiany tej temperatury przez lata, wraz ze zmianą temperatury globalnie przez procesty takie jak globalne ocieplenie.
Ilość połowów jest również istotną kwestią braną przez modele pod uwagę. Część modeli poza samą ilością połowów uwzględnia ich natężenie. Na tej postawie można wysnuć hipotezę, że czym większe ich natężenie, tym mniej śledzi jest w stanie dorosnąć i osiągnąć pełną długość. Dodatkowo mniejsze śledzie mogą mieć odrobinę większą szansę na uniknięcie sieci rybackich, co powoduje, że w przyszłości będą w stanie urodzić kolejnych, również mniejszych osobników.
[1] Grieve, B.D., Hare, J.A. & Saba, V.S. Projecting the effects of climate change on Calanus finmarchicus distribution within the U.S. Northeast Continental Shelf. Sci Rep 7, 6264 (2017). https://doi.org/10.1038/s41598-017-06524-1